检索结果

Select

1. 基于Spark的ItemBased推荐算法性能优化

廖彬, 张陶, 国冰磊, 于炯, 张旭光, 刘炎

计算机应用 2017, 37 (7): 1900-1905. DOI: 10.11772/j.issn.1001-9081.2017.07.1900

摘要（560）

PDF （928KB）（381）

MapReduce计算场景下，复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成，但多个作业之间严重的冗余磁盘读写及重复的资源申请操作，使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率，首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析；在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率，并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时，算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%，Spark平台下的算法相比MapReduce平台，执行效率整体提高3倍以上。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于数据分类存储的云存储系统节能算法

张陶廖彬孙华李丰军姬金虎

计算机应用 2014, 34 (8): 2267-2272. DOI: 10.11772/j.issn.1001-9081.2014.08.2267

摘要（414）

PDF （956KB）（460）

云存储规模的不断扩大以及设计时对能耗因素的忽略使其日益暴露出高能耗低效率的问题，并且此问题已经成为制约云计算与大数据快速发展的一个主要瓶颈。已有研究大多采用将整个存储节点调整到低能耗模式以达到节能的目的。根据数据的重复性及访问规律，设计了基于数据分类的存储模型，将存储区域划分为热数据块区、冷数据块区与重复文件区，根据不同数据的重复性及活动因子特点进行分区存储。围绕新的存储模型，设计了适应节能的数据存储算法并建立了能耗模型。实验结果表明：当系统负载小于设定阈值时，新的存储模型能够提高存储系统25%左右的能耗利用率。

参考文献 | 相关文章 | 多维度评价

Select

3. 数据依赖约束下的任务调度资源选择算法

廖彬于炯张陶杨兴耀

计算机应用 2014, 34 (8): 2260-2266. DOI: 10.11772/j.issn.1001-9081.2014.08.2260

摘要（290）

PDF （1100KB）（428）

大数据环境下的计算任务往往具有一定数据依赖性关系(如MapReduce)，现有的分布式存储系统任务资源选择策略选择离请求者最近的数据块响应服务，忽略了对数据块所在服务器CPU、磁盘I/O与网络等资源负载状态的考虑。在分析研究系统集群结构、文件分块、数据块存储机制的基础上，定义了集群节点矩阵、CPU负载矩阵、磁盘I/O负载矩阵、网络负载矩阵、文件分块矩阵、数据块存储矩阵与数据块存储节点状态矩阵，为任务与数据之间的依赖性构建了基础数据模型，提出了一种数据依赖约束下的最优资源选择算法(ORS2DC)。任务调度节点负责维护基础数据，MapReduce任务与数据块读取任务由于依赖资源不同而采取不同的选择策略。实验结果表明：所提算法能够为任务选择质量更高的资源，提高任务完成质量的同时减轻了NameNode负担，减小了单点故障发生的概率。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于P2P的分布式文件系统下载效率优化

廖彬于炯张陶杨兴耀

计算机应用 2011, 31 (09): 2317-2320. DOI: 10.3724/SP.J.1087.2011.02317

摘要（1780）

PDF （730KB）（501）

对分布式文件系统(HDFS)集群内部数据块存储机制与下载流程进行分析研究，结合P2P多点与多线程下载思想，从数据块、文件、集群三个方面提出了数据下载效率优化算法。考虑到集群内部可能因多线程下载出现的负载均衡问题，提出下载点选择算法以优化下载点的选择。实验结果表明，三种优化算法都能提高下载效率，下载点选择算法能够很好地实现集群内部DataNode负载均衡。